潜在世界模型使代理商可以对具有高维度观察的复杂环境进行推理。但是,适应新环境并有效利用先前的知识仍然是重大挑战。我们提出了变异因果动力学(VCD),这是一种结构化的世界模型,可利用跨环境的因果机制的不变性,以实现快速和模块化的适应性。通过因果分解过渡模型,VCD能够识别在不同环境中可重复使用的组件。这是通过结合因果发现和变异推断来以无监督方式共同学习潜在表示和过渡模型来实现的。具体而言,我们在表示模型和作为因果图形模型结构的过渡模型上优化了较低限制的证据。在对具有状态和图像观察的模拟环境的评估中,我们表明VCD能够成功识别因果变量,并在不同环境中发现一致的因果结构。此外,鉴于在以前看不见的中间环境中进行了少量观察,VCD能够识别动力学的稀疏变化并有效地适应。在此过程中,VCD显着扩展了潜在世界模型中当前最新的功能,同时在预测准确性方面也可以进行比较。
translated by 谷歌翻译
我们提出了一个无监督的中心生成模型,该模型以无监督的方式从RGB-D视频中学习3D对象。受到2D表示学习的先前艺术的启发,Obpose认为是分解的潜在空间,分别编码对象的位置(其中)和外观(什么)信息。尤其是,Obpose利用对象的规范姿势,通过最小体积原理定义为一种新的感应偏见,用于学习其中的分量。为了实现这一目标,我们提出了一种有效的,体素化的近似方法,直接从神经辐射场(NERF)恢复对象形状。结果,无声的场景将场景作为代表各个对象的NERF的组成。当在YCB数据集上评估无监督场景细分时,Obpose的表现优于3D场景推理中最新的最新艺术(痴迷)在视频输入以及多视频静态静态静态静态质量方面的细分质量方面有很大的差距场景。此外,在Obpose编码器中做出的设计选择通过相关消融验证。
translated by 谷歌翻译
四足球运动正在迅速成熟到现在的机器人经常穿越各种非结构化的地形。然而,虽然通过从一系列预计算机样式中选择Gaits可以改变Gaits,但是当机器人处于运动中,当前规划仪不能连续地变化关键的步态参数。具有意外操作特性的综合,现有的Gaits,甚至是动态演习的混合延伸超出了当前最先进的能力。在这项工作中,我们通过学习捕获构成特定步态的关键姿态阶段的潜在空间来解决这种限制。这是通过在单个小跑风格上训练的生成模型来实现的,这鼓励解散,使得将驱动信号应用于潜在的单个维度,诱导合成连续各种跑步的整体计划。我们证明了驱动信号映射的特定性质直接映射到诸如Cadence,脚步高度和完全姿势持续时间的步态参数。由于我们的方法的性质,这些合成的Gaits在机器人操作期间在线在线持续变量,强大地捕获了显着超过培训期间看到的相对狭窄的行为的流动丰富性。此外,使用生成模型的使用促进了对扰动的检测和减轻,以提供多功能和坚固的规划框架。我们在真正的Quadruped机器人上评估我们的方法,并证明我们的方法实现了动态小跑风格的连续混合,同时对外部扰动具有鲁棒性和反应性。
translated by 谷歌翻译
物体重新排列最近被出现为机器人操纵的关键能力,具有实用的解决方案,通常涉及物体检测,识别,掌握和高级规划。描述期望场景配置的目标图像是有希望和越来越多的指令模式。一个关键的突出挑战是机器人前面的物体之间的比赛的准确推理,并且在提供的目标图像中看到的那些,其中最近的作品在没有对象特定的培训数据的情况下挣扎。在这项工作中,我们探讨了现有方法在对象之间推断出匹配的能力,因为观察到的目标场景之间的视觉偏移增加。我们发现当前设置的基本限制是源和目标图像必须包含每个对象的相同$ \ texit {实例} $,它限制了实际部署。我们提出了一种新的对象匹配方法,它使用大型预先训练的vision语言模型来匹配交叉实例设置中的对象,通过利用语义以及视觉特征作为更强大,更通用,相似度的衡量标准。我们证明,这在交叉实例设置中提供了大大改进的匹配性能,并且可用于将多对象重新排列与机器人机械手从分享的图像与机器人的场景共享的图像指导。
translated by 谷歌翻译
本文介绍了欧几里德对称的生成模型:E(n)等分反的归一化流量(E-NFS)。为了构建E-NFS,我们采用鉴别性E(n)图神经网络,并将它们集成为微分方程,以获得可逆的等式功能:连续时间归一化流量。我们展示了E-NFS在诸如DW4和LJ13的粒子系统中的文献中的基础和现有方法,以及QM9的分子在对数似然方面。据我们所知,这是第一次流动,共同生成3D中的分子特征和位置。
translated by 谷歌翻译
结肠镜检查是一种常规门诊手术,用于检查结肠和直肠的任何异常,包括息肉,憩室和结肠结构的狭窄。临床医生的大量时间用于在结肠镜检查过程中拍摄的快照,以维持医疗记录或进一步研究。自动化此步骤可以节省时间并提高流程的效率。在我们的工作中,我们收集了一个由专家注释的过程中的120个结肠镜检查视频和2416张快照的数据集。此外,我们开发了一种基于新颖的,视觉转化器的地标检测算法,该算法可以从结肠镜检查过程中鉴定出关键的解剖标志(阑尾孔,回肠瓣膜/盲肠地标和直肠翻新)。我们的算法在预处理过程中使用自适应伽马校正,以保持所有图像的一致亮度。然后,我们将视觉变压器用作特征提取主链和完全连接的基于网络的分类器头,将给定的框架分为四个类:三个地标或非地标框架。我们将视觉变压器(VIT-B/16)主链与RESNET-101和Convnext-B骨干进行了比较,这些骨干和Convnext-B骨干也接受了类似训练。我们报告了快照的测试数据集上的视觉变压器主链的精度为82%。
translated by 谷歌翻译
We propose a simultaneous learning and pruning algorithm capable of identifying and eliminating irrelevant structures in a neural network during the early stages of training. Thus, the computational cost of subsequent training iterations, besides that of inference, is considerably reduced. Our method, based on variational inference principles using Gaussian scale mixture priors on neural network weights, learns the variational posterior distribution of Bernoulli random variables multiplying the units/filters similarly to adaptive dropout. Our algorithm, ensures that the Bernoulli parameters practically converge to either 0 or 1, establishing a deterministic final network. We analytically derive a novel hyper-prior distribution over the prior parameters that is crucial for their optimal selection and leads to consistent pruning levels and prediction accuracy regardless of weight initialization or the size of the starting network. We prove the convergence properties of our algorithm establishing theoretical and practical pruning conditions. We evaluate the proposed algorithm on the MNIST and CIFAR-10 data sets and the commonly used fully connected and convolutional LeNet and VGG16 architectures. The simulations show that our method achieves pruning levels on par with state-of the-art methods for structured pruning, while maintaining better test-accuracy and more importantly in a manner robust with respect to network initialization and initial size.
translated by 谷歌翻译
强化学习(RL)在机器人中的应用通常受高数据需求的限制。另一方面,许多机器人场景中容易获得近似模型,使基于模型的方法,如规划数据有效的替代方案。尽管如此,这些方法的性能遭受了模型不精确或错误。从这个意义上讲,RL和基于模型的规划者的各个优势和弱点是。在目前的工作中,我们调查如何将两种方法集成到结合其优势的一个框架中。我们介绍了学习执行(L2E),从而利用近似计划中包含的信息学习有关计划的普遍政策。在我们的机器人操纵实验中,与纯RL,纯规划或基线方法相比,L2E在结合学习和规划的基线方法时表现出增加的性能。
translated by 谷歌翻译
A key challenge for automatic hate-speech detection on social media is the separation of hate speech from other instances of offensive language. Lexical detection methods tend to have low precision because they classify all messages containing particular terms as hate speech and previous work using supervised learning has failed to distinguish between the two categories. We used a crowd-sourced hate speech lexicon to collect tweets containing hate speech keywords. We use crowd-sourcing to label a sample of these tweets into three categories: those containing hate speech, only offensive language, and those with neither. We train a multi-class classifier to distinguish between these different categories. Close analysis of the predictions and the errors shows when we can reliably separate hate speech from other offensive language and when this differentiation is more difficult. We find that racist and homophobic tweets are more likely to be classified as hate speech but that sexist tweets are generally classified as offensive. Tweets without explicit hate keywords are also more difficult to classify.
translated by 谷歌翻译